在具有分发班次的匪徒中,一个目的是在必要时自动检测奖励分配的未知数字$ L $。虽然这一问题仍然持续多年,但最近奥尔等人的突破。 (2018,2019)提供第一种自适应过程,以保证最佳(动态)后悔$ \ SQRT {lt} $,以便$ t $ rounds,无需了解$ l $。但是,并非所有分类换档都同样严重,例如,假设不会发生最佳的ARM开关,因此我们不能排除遗憾的$ O(\ SQRT {T})$可能仍然可能;换句话说,是否可以实现动态遗憾,以至于仅通过未知数量的严格班次进行最佳缩放?这不幸的是,尽管有各种各样的尝试,但仍然难以难以捉摸(Auer等,2019年,Foster等,2020)。我们在双武装匪徒的情况下解决这个问题:我们推出了一种自适应过程,保证了订单$ \ tilde {o}的动态遗憾(\ sqrt {\ tilde {l} t})$,其中$ \ tilde l \ ll l $捕获未知数量的严重最佳臂更改,即在奖励中具有重要的开关,最后持续到实际需要重启。因此,对于这些严重转变之外的任何数字$ L $的分配转移,我们的程序却遗憾地只是$ \ tilde {o}(\ sqrt {t})\ ll \ tilde {o}(\ sqrt {lt} )$。最后,我们注意到我们对严重转变的概念适用于随机切换匪和对抗性匪徒的经典设置。
translated by 谷歌翻译